Liquid AI推出新一代小型基础模型LFM2.5,专为边缘设备和本地部署设计。该系列包括基础版和指令版,并扩展了日语、视觉语言及音频语言变种。模型基于LFM2混合架构,针对CPU和NPU优化,实现快速高效推理。开源权重已发布在Hugging Face平台。
Firefox新版默认开启AI功能引发争议,用户担忧隐私与性能问题。测试显示启用后CPU和内存占用显著增加,影响浏览体验,且多数用户不知情。
微软Azure ND GB300v6虚拟机在Llama270B模型上创下每秒110万token推理速度新纪录。该成就基于与英伟达的深度合作,采用配备72个Blackwell Ultra GPU和36个Grace CPU的NVIDIA GB300NVL72系统,突显微软在规模化AI运算领域的专业实力。
苹果发布搭载M5芯片的14英寸MacBook Pro,首次针对AI任务进行硬件优化。M5芯片配备10核CPU和GPU,每个GPU核心内置神经网络加速单元,显著提升本地AI计算能力。集成第三代光线追踪引擎和动态缓存技术,可智能分配显存资源。新品续航达24小时,主打高效AI处理与图形性能。
为Firefox浏览器翻译功能优化的CPU加速神经机器翻译模型。
一个基于音频驱动的实时2D聊天头像生成模型,可在仅使用CPU的设备上实现30fps的实时推理。
高效CPU本地离线LaTeX识别工具
低比特大型语言模型在CPU上的推理加速
Openai
$0.63
输入tokens/百万
$3.15
输出tokens/百万
131
上下文长度
Alibaba
-
Google
$0.14
$0.28
$0.35
$0.7
$1.4
Deepseek
$1
8
$2
128
01-ai
4
Dogacel
这是一个基于原始DeepSeek-OCR模型的优化版本,专门支持在苹果金属性能着色器(MPS)和CPU上进行推理的OCR模型。它能够从图像中提取文本并转换为结构化格式,支持多语言文档识别。
pnnbao-ump
VieNeu-TTS-1000h是一款先进的越南语端侧文本转语音模型,基于约1000小时高质量越南语语音数据训练,具备即时语音克隆功能,支持越南语与英语的无缝切换,能在CPU或GPU上实时合成24kHz波形。
Qwen
Qwen3-VL是通义系列最强大的视觉语言模型,采用混合专家模型架构(MoE),提供GGUF格式权重,支持在CPU、GPU等设备上进行高效推理。模型在文本理解、视觉感知、空间理解、视频处理等方面全面升级。
Qwen3-VL-2B-Thinking是Qwen系列中最强大的视觉语言模型之一,采用GGUF格式权重,支持在CPU、NVIDIA GPU、Apple Silicon等设备上进行高效推理。该模型具备出色的多模态理解和推理能力,特别增强了视觉感知、空间理解和智能体交互功能。
Qwen3-VL是通义系列中最强大的视觉语言模型,具备出色的文本理解和生成能力、深入的视觉感知和推理能力、长上下文支持、强大的空间和视频动态理解能力,以及智能体交互能力。本仓库提供GGUF格式权重,支持在CPU、GPU等设备上高效推理。
Qwen3-VL-2B-Instruct-GGUF是通义千问系列的多模态视觉语言模型的GGUF量化版本,具备20亿参数,支持图像理解和文本生成的无缝融合,可在CPU、GPU等设备上高效运行。
LeviDeHaan
SecInt是一个针对实时nginx安全日志分类进行微调的SmolLM2-360M模型,旨在自动检测Web服务器日志中的安全威胁、错误和正常流量模式,准确率超过99%,可在CPU上实现实时检测。
VieNeu-TTS是首个可在个人设备上运行的越南语文本转语音模型,具备即时语音克隆能力。基于NeuTTS Air微调,能够生成自然逼真的越南语语音,在CPU上具备实时性能。
sanchezalonsodavid17
这是DeepSeek-OCR的模态平衡量化(MBQ)变体,通过对视觉编码器采用4位NF4量化减少内存占用,同时保持投影器和语言/解码器的BF16精度,可在普通GPU上进行本地部署和快速CPU试验。
kenpath
Svara-TTS是一款面向印度语言的开源多语言文本转语音模型,支持19种语言(18种印度语言+印度英语)。该模型基于Orpheus风格的离散音频令牌方法构建,旨在普通GPU/CPU上实现清晰、富有表现力且低延迟的语音合成。
MikeKuykendall
这是DeepSeek公司的DeepSeek-MoE-16B模型的Q4_K_M量化版本,通过llama.cpp的Rust绑定启用了MoE(专家混合)CPU卸载功能,显著减少显存使用。
这是基于WeOpenML的GPT-OSS 20B模型的GGUF格式版本,首次实现了创新的MoE CPU专家卸载技术。该技术在保持完整生成质量的同时,实现了99.9%的显存缩减,仅需2MB显存即可运行200亿参数的混合专家模型。
bartowski
这是TheDrummer/Snowpiercer-15B-v3模型的GGUF量化版本,提供了多种量化选项,从高质量到低内存占用,支持在CPU和GPU上高效运行。模型使用llama.cpp进行量化,并针对不同硬件进行了优化。
vito95311
这是Qwen3-Omni 31.7B参数模型的专业量化版本,采用先进的INT8+FP16混合精度量化技术,内存使用减少50%以上,支持智能GPU/CPU混合推理,让大型多模态模型能够在消费级硬件上高效运行。
ModernVBERT
ColModernVBERT是ModernVBERT的后期交互版本,专门针对视觉文档检索任务进行了微调,是该任务上性能最佳的模型。它是一个参数为2.5亿的紧凑型视觉-语言编码器,在视觉文档基准测试中达到了近乎参数大10倍模型的性能,同时在CPU上具有可观的推理速度。
SkynetM1
本模型是基于huihui-ai/Huihui-Tongyi-DeepResearch-30B-A3B-abliterated转换的GGUF格式版本,专门为llama.cpp优化,支持高效的CPU推理。模型采用Q4_K_M量化级别,在保持较好性能的同时显著减小模型体积。
samunder12
基于Llama 3.1 8B Instruct微调的GGUF量化模型,具有强势、果断且具有挑衅性的AI人设,专为角色扮演和创意写作场景优化,支持在CPU或GPU上进行本地推理。
DavidAU
基于OpenAI的gpt-oss-120b模型优化的大型语言模型,使用NEO数据集进行性能提升,支持多场景应用,可在CPU、GPU或部分卸载模式下运行,具有128k上下文长度和最多128个专家的混合专家架构。
Nihal2000
这是 sentence-transformers/all-MiniLM-L6-v2 模型的 TensorFlow Lite 转换版本,专门为边缘设备优化。该模型可将文本映射到384维向量空间,支持语义搜索、文本相似度计算等任务。提供Float32和INT8量化两个版本,量化版本体积缩小约4倍,在CPU上运行速度显著提升。
这是一个基于Qwen 3平台的编码/编程模型,具备完整的推理能力,速度极快。在中等硬件上每秒能处理超过150个token,仅使用CPU时每秒也能处理50个以上token。它是一个通用的编码模型,适用于生成代码块、构思编码思路以及快速生成代码草稿。
uniprof是一个简化CPU性能分析的工具,支持多种编程语言和运行时,无需修改代码或添加依赖,可通过Docker容器或主机模式进行一键式性能剖析和热点分析。
一个基于Talos SDK的简单MCP实现,用于从多个Talos节点获取数据,包括磁盘、网络接口、CPU和内存使用情况,并支持重启节点。
基于MCP协议的Mac系统监控服务器,可监控CPU、内存和磁盘使用情况
一个提供实时系统信息的MCP服务器,可获取CPU、内存、磁盘、网络等指标,支持跨平台运行并通过标准化接口访问。
Perfetto MCP是一个模型上下文协议服务器,能够将自然语言提示转换为专业的Perfetto跟踪分析,帮助开发者无需编写SQL即可进行性能分析、ANR检测、CPU热点线程识别、锁竞争分析和内存泄漏检测。
基于Gradio的轻量级应用,使用Hugging Face Transformers进行情感分析和反讽检测,兼容MCP架构,可在CPU上运行。
一个为Claude提供实时系统监控功能的MCP服务器,支持CPU、内存、磁盘、网络、电池和网速的监测。
一个为Claude提供实时系统监控功能的MCP服务器,可监测CPU、内存、磁盘、网络、电池和网速等指标。